🚫 Что делать с пропущенными значениями перед нормализацией или стандартизацией признаковПропущенные значения (NaN

Библиотека собеса по Data Science | вопросы с собеседований

🚫

Что делать с пропущенными значениями перед нормализацией или стандартизацией признаков

Пропущенные значения (NaN, пустые ячейки) затрудняют масштабирование данных, потому что статистики вроде среднего, стандартного отклонения или минимума становятся некорректными. Поэтому пропуски нужно обработать до нормализации.

✅

Основные варианты

1️⃣

Импутация (восстановление) пропущенных значений

— Простые методы: среднее, медиана, мода.
— Продвинутые: KNN, модели на деревьях, многократная импутация (Multiple Imputation).

2️⃣

Удаление строк с пропусками

— Допустимо, если доля пропущенных значений очень мала.

3️⃣

Использование моделей, устойчивых к пропускам

— Некоторые алгоритмы (например, XGBoost, CatBoost) умеют обрабатывать пропуски без предварительной импутации.

📌 Вывод

— Пропуски надо обрабатывать до масштабирования.
— Лучший подход — импутация на обучении, затем масштабирование по тем же правилам.
— Не смешивайте статистики между train и test — это критично для честной оценки модели.

Библиотека собеса по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

www.tg-me.com/in/Библиотека собеса по Data Science | вопросы с собеседований/com.ds_interview_lib/980

755 viewsMay 21 at 18:20

tg-me.com/ds_interview_lib/980

Create: 2025-05-21
Last Update: 2025-07-02 18:18:56

🚫 Что делать с пропущенными значениями перед нормализацией или стандартизацией признаков

Пропущенные значения (NaN, пустые ячейки) затрудняют масштабирование данных, потому что статистики вроде среднего, стандартного отклонения или минимума становятся некорректными. Поэтому пропуски нужно обработать до нормализации.

✅ Основные варианты

1️⃣ Импутация (восстановление) пропущенных значений

— Простые методы: среднее, медиана, мода.
— Продвинутые: KNN, модели на деревьях, многократная импутация (Multiple Imputation).

2️⃣ Удаление строк с пропусками

— Допустимо, если доля пропущенных значений очень мала.

3️⃣ Использование моделей, устойчивых к пропускам

— Некоторые алгоритмы (например, XGBoost, CatBoost) умеют обрабатывать пропуски без предварительной импутации.

📌 Вывод

— Пропуски надо обрабатывать до масштабирования.
— Лучший подход — импутация на обучении, затем масштабирование по тем же правилам.
— Не смешивайте статистики между train и test — это критично для честной оценки модели.

Библиотека собеса по Data Science

Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

🚫 Что делать с пропущенными значениями перед нормализацией или стандартизацией признаковПропущенные значения (NaN